数据驱动的故障检测已被视为3D图像分割任务。从合成数据训练的模型在某些调查中很难概括。最近,使用稀疏手动2D切片的训练3D断层分割被认为会产生令人鼓舞的结果,但是手动标记具有许多假阴性标签(异常注释),这对训练有害,因此对检测性能有害。在稀疏的2D标签下训练3D断层分割网络的动机,同时抑制假阴性标签,我们分析了训练过程梯度,并提出了蒙版骰子(MD)损失。此外,故障是一个边缘功能,并且当前的编码器decoder架构广泛用于故障检测(例如,U形网络)不利于边缘表示。因此,提出了故障网络,该故障网络是为故障的特征而设计的,采用高分辨率传播特征,并嵌入多尺度压缩融合块以融合多尺度信息,从而使边缘信息在传播和融合过程中得到充分保存,从而通过几个计算资源实现高级性能。实验表明,MD损失支持将人类经验纳入训练中,并抑制其中的假阴性标签,从而使基线模型可以提高性能并推广到更多的调查。故障网络能够提供对故障的更稳定和可靠的解释,它使用极低的计算资源,并且推断的速度明显快于其他模型。我们的方法表明与几种主流方法相比,最佳性能。
translated by 谷歌翻译
LiDAR-based 3D object detection is an indispensable task in advanced autonomous driving systems. Though impressive detection results have been achieved by superior 3D detectors, they suffer from significant performance degeneration when facing unseen domains, such as different LiDAR configurations, different cities, and weather conditions. The mainstream approaches tend to solve these challenges by leveraging unsupervised domain adaptation (UDA) techniques. However, these UDA solutions just yield unsatisfactory 3D detection results when there is a severe domain shift, e.g., from Waymo (64-beam) to nuScenes (32-beam). To address this, we present a novel Semi-Supervised Domain Adaptation method for 3D object detection (SSDA3D), where only a few labeled target data is available, yet can significantly improve the adaptation performance. In particular, our SSDA3D includes an Inter-domain Adaptation stage and an Intra-domain Generalization stage. In the first stage, an Inter-domain Point-CutMix module is presented to efficiently align the point cloud distribution across domains. The Point-CutMix generates mixed samples of an intermediate domain, thus encouraging to learn domain-invariant knowledge. Then, in the second stage, we further enhance the model for better generalization on the unlabeled target set. This is achieved by exploring Intra-domain Point-MixUp in semi-supervised learning, which essentially regularizes the pseudo label distribution. Experiments from Waymo to nuScenes show that, with only 10% labeled target data, our SSDA3D can surpass the fully-supervised oracle model with 100% target label. Our code is available at https://github.com/yinjunbo/SSDA3D.
translated by 谷歌翻译
无监督的元学习仙人掌的开创性方法是一种基于伪标记的基于聚类的方法。这种方法是模型不合时宜的,可以与监督算法结合使用,以从未标记的数据中学习。但是,它通常遭受标签不一致或多样性有限的损害,这会导致性能差。在这项工作中,我们证明了核心原因是在嵌入空间中缺乏群集友好的属性。我们通过最大程度地限制类间相似性比来解决这一问题,以提供群友好的嵌入功能,并通过全面的实验来验证我们的方法。请注意,尽管仅利用我们嵌入空间中的简单聚类算法(k均值)来获得伪标签,但我们取得了重大改进。此外,我们采用渐进式评估机制来获取更多的样本,以进一步缓解有限的多样性问题。最后,我们的方法也是模型不可屈服的,可以轻松地集成到现有的监督方法中。为了证明其概括能力,我们将其集成到两种代表性算法中:MAML和EP。三个主要射击基准的结果清楚地表明,与最先进的模型相比,所提出的方法取得了重大改进。值得注意的是,我们的方法还优于两个任务中相应的监督方法。
translated by 谷歌翻译
近年来,旨在在衣服变化下与人身份相匹配的换衣人重新识别(CC-REID)是近年来的一个新的研究主题。但是,典型的基于生物识别的CC-REID方法通常需要繁琐的姿势或身体部位估计器来从人类生物特征性状中学习布置性特征,这带有高计算成本。此外,由于监视图像的分辨率下降,性能受到了显着限制。为了解决上述限制,我们为CC-REID提出了一个有效的身份敏感知识传播框架(DECKPRO)。具体而言,引入了一个布 - 丝毫空间注意模块,以通过从人解析模块中获取知识来消除服装外观的注意力。为了减轻人类面孔的分辨率退化问题和对矿山身份敏感的提示,我们建议使用先前的面部知识恢复缺失的面部细节,然后将其传播到较小的网络。训练后,不再需要进行人类解析或面部修复的额外计算。广泛的实验表明,我们的框架的表现优于最先进的方法。我们的代码可在https://github.com/kimbingng/deskpro上找到。
translated by 谷歌翻译
基于LIDAR的3D对象检测的先前工作主要集中在单帧范式上。在本文中,我们建议通过利用多个帧的时间信息(即点云视频)来检测3D对象。我们从经验上将时间信息分为短期和长期模式。为了编码短期数据,我们提出了一个网格消息传递网络(GMPNET),该网络将每个网格(即分组点)视为节点,并用邻居网格构造K-NN图。为了更新网格的功能,gmpnet迭代从其邻居那里收集信息,从而从附近的框架中挖掘了运动提示。为了进一步汇总长期框架,我们提出了一个细心的时空变压器GRU(AST-GRU),其中包含空间变压器注意(STA)模块和颞变压器注意(TTA)模块。 STA和TTA增强了香草gru,以专注于小物体并更好地对齐运动对象。我们的整体框架支持点云中的在线和离线视频对象检测。我们基于普遍的基于锚和锚的探测器实现算法。关于挑战性的Nuscenes基准的评估结果显示了我们方法的出色表现,在提交论文时,在没有任何铃铛和哨声的情况下在排行榜上获得了第一个。
translated by 谷歌翻译
在自主驾驶场景中,基于点云的主导云的3D对象检测器很大程度上依赖于大量准确标记的样品,但是,点云中的3D注释非常乏味,昂贵且耗时。为了减少对大量监督的依赖,已经提出了基于半监督的学习(SSL)方法。伪标记的方法通常用于SSL框架,但是,教师模型的低质量预测严重限制了其性能。在这项工作中,我们通过将教师模型增强到具有几种必要的设计的熟练培训模型,为半监督3D对象检测提出了一个新的伪标记框架。首先,为了改善伪标签的召回,提出了一个时空集合(Ste)模块来生成足够的种子盒。其次,为了提高召回框的精确度,基于群集的盒子投票(CBV)模块旨在从聚类的种子盒中获得汇总投票。这也消除了精致阈值选择伪标签的必要性。此外,为了减少训练期间错误的伪标记样本的负面影响,通过考虑智慧对比度学习(BCL)提出了软监督信号。在一次和Waymo数据集上验证了我们的模型的有效性。例如,一次,我们的方法将基线显着提高了9.51地图。此外,有了一半的注释,我们的模型在Waymo上的完整注释都优于Oracle模型。
translated by 谷歌翻译
现有的无监督点云预训练的方法被限制在场景级或点/体素级实例歧视上。场景级别的方法往往会失去对识别道路对象至关重要的本地细节,而点/体素级方法固有地遭受了有限的接收领域,而这种接收领域无力感知大型对象或上下文环境。考虑到区域级表示更适合3D对象检测,我们设计了一个新的无监督点云预训练框架,称为proposalcontrast,该框架通过对比的区域建议来学习强大的3D表示。具体而言,通过从每个点云中采样一组详尽的区域建议,每个提案中的几何点关系都是建模用于创建表达性建议表示形式的。为了更好地适应3D检测属性,提案contrast可以通过群体间和统一分离来优化,即提高跨语义类别和对象实例的提议表示的歧视性。在各种3D检测器(即PV-RCNN,Centerpoint,Pointpillars和Pointrcnn)和数据集(即Kitti,Waymo和一次)上验证了提案cont抗对流的概括性和可传递性。
translated by 谷歌翻译
根据图像回答语义复杂的问题是在视觉问题应答(VQA)任务中的具有挑战性。虽然图像可以通过深度学习来良好代表,但是始终简单地嵌入问题,并且不能很好地表明它的含义。此外,视觉和文本特征具有不同模式的间隙,很难对齐和利用跨模块信息。在本文中,我们专注于这两个问题,并提出了一种匹配关注(GMA)网络的图表。首先,它不仅为图像构建图形,而且在句法和嵌入信息方面构建了该问题的图表。接下来,我们通过双级图形编码器探讨了模特内的关系,然后呈现双边跨模型图匹配注意力以推断图像与问题之间的关系。然后将更新的跨模式特征发送到答案预测模块中以进行最终答案预测。实验表明,我们的网络在GQA数据集和VQA 2.0数据集上达到了最先进的性能。消融研究验证了GMA网络中每个模块的有效性。
translated by 谷歌翻译
显着对象检测(SOD)模拟了人类视觉感知系统以在场景中定位最具吸引力的对象,已广泛应用于各种计算机视觉任务。现在,随着深度传感器的出现,可以轻松捕获具有富裕的空间信息的深度图,并有利于提高SOD的性能。尽管在过去几年中提出了各种具有有前途的性能的基于RGB-D的SOD模型,但仍缺乏对这些主题的这些模型和挑战的深入了解。在本文中,我们从各个角度提供了基于RGB-D的SOD模型的全面调查,并详细介绍了相关的基准数据集。此外,考虑到光场还可以提供深度图,我们还从该域中回顾了SOD模型和流行的基准数据集。此外,为了研究现有模型的SOD能力,我们进行了全面的评估,以及基于属性的几种基于RGB-D的SOD模型的评估。最后,我们讨论了基于RGB-D的SOD的几个挑战和开放方向,以供未来的研究。将在https://github.com/taozh2017/rgbdsodsurvey上公开提供所有收集的模型,基准数据集,源代码链接,用于基于属性的评估的数据集以及评估代码
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译